Dify Unveils AI Agent: Creating GPTs and Assistants with Various LLMs
ポイント
GPTsとの違い
https://scrapbox.io/files/662dc56009dd740026c6ffe3.png
Difyは、他のLLMを使うことができる
DifyはOSSだからこそ、柔軟にワークスペースに追加できる
だからこそ、既存ビジネスに簡単に追加できる
感じたこと
OpenAIはGPTsを出したけど、我々はさらに一歩進んで <= 好き!!!
オープンソースだからこそ、様々なモデルと連携できる。
ありがたいし、とても偉大なことだな...
Difyは段階的に物事を考えるのに、CoTを使っているのか。
概要
Difyを使えば、どんなLLMでもAIエージェントを作ることができます。指示を使い、様々なツールと追加の知識ベースを組み合わせるだけで、自分にぴったりのカスタムアシスタントを作ることができます。 人間は複雑な問題を解決することができます。このプロセスには、情報を理解し、どのようなステップを踏むべきかを考え、選択を行い、ツールを使用し、何が起こるかを見て、次に何をすべきかを決定することが含まれます。
LLMは言語の理解と処理が非常に得意なので、現実世界の問題に取り組むのに役立つのではないかと期待しています。
以前、OpenAIはGPTsとAssistants APIというものを考案しました。これにより、OpenAIのモデルを使ってAIアシスタントを試すことができました。これは私たちの創造力を刺激してくれました。今、Difyはさらに一歩進んで、主要なLLMのほとんどすべてと、これらのスマートなAIエージェントを作成するための様々なツールを使用できるようにしています。
💡挑戦的な文章で、ワクワクさせてくれる。
OpenAI Assistants APIとの違いは何ですか?
OpenAI Assistants APIは、開発者がOpenAIのモデルを使って高度なAIアシスタントを作成できるようにします。一方、オープンであることを重視するLLMアプリ開発プラットフォームであるDifyは、オープンソースのものを含むあらゆる種類のLLMをサポートしています。つまり、OpenAIのモデルだけでなく、異なるAIエージェントに使用できる幅広い選択肢があるのです。
Difyがオープンソースであることの良い点は、ワークスペースに直接設置できることです。これにより、既存のビジネスに AI の機能を追加することが非常に簡単になり、独自の API をリアルタイムで使用できるツールに変えることさえできます。これは、データを非公開にしておく必要がある企業にとって大きなメリットです。この点については、「Dify: あらゆるLLMをベースにしたオープンソースのAssistants API」という記事で詳しく説明しています。 https://scrapbox.io/files/662dc56009dd740026c6ffe3.png
AIエージェントとは何ですか?
私たちは、AIエージェントが人間の考え方や問題解決の方法を模倣して、段階的に最終的な解決策を導き出すというアイデアに感銘を受けています。 Difyでは、AIエージェントは「CoT (Chain-of-Thought)」の推論法を使用しています。つまり、これらのエージェントは徐々に物事を考え抜いて問題を解決することができるのです。そして、ユーザーフレンドリーなビジュアルインターフェースを使えば、すぐにエージェントを作成できるのが素晴らしいところです。 例えば、「トランプの妻は今何歳ですか?」と質問したとします。現在、LLMには自身のデータベースから彼女の現在の年齢を答える能力がありません。
しかし、心配はいりません。「Wikipedia_search」と「current_time」という2つの効果的なツールがあります。この質問への取り組み方を段階的に説明します。
まず、「Wikipedia_search」を使ってメラニア・トランプの生年を調べます。彼女は1970年4月26日に生まれました。
次に、「current_time」を使って今日の日付を特定します。2024年1月21日です。
そして最後に、メラニア・トランプの現在の年齢を計算します。53歳です。
https://scrapbox.io/files/662dc72e5aa9e80024125f29.png
様々なLLMでエージェントの推論を実現するにはどうすればよいのでしょうか?
これらのAIエージェントをスマートにするには、推論のための強力な基本モデルが必要です。そこでLLMの出番です。LLMにはCoT(Chain of Thought)推論機能があります。モデルプロバイダーによって、これらのモデルに考えさせる方法は異なります。例えば、「Function calling」や「ReAct」などです。Function Callingを使用するモデルは通常、より良い性能を発揮します。 現在、OpenAI、ChatGLM、Tongyi、MiniMax、ERNIE Botのモデルは、このFunction calling機能をサポートしています。Function Callingをまだサポートしていないモデルシリーズに対しては、呼び出しのための汎用的なReActメソッドを提供しています。
https://scrapbox.io/files/662dc7fdf6ab930024777bb3.png
現在AIエージェントに利用可能なツールは何ですか?
AIエージェントにとって、適切なツールセットを持つことは重要です。これらのツールは単なる付属品ではありません。追加の知識とスキルを提供し、AIが物事を考え抜くために不可欠なのです。
このバージョンでは、AIが呼び出すことができる通常の知識ベースだけでなく、非常に便利な11のツールを用意しています。
Google検索: これはAIのGoogleへの入り口のようなものです。AIが検索を実行し、情報やウェブページの一部を抜き出すことができます。
DALL·E: OpenAIのアーティスト支援ツールです。AIはこれを使って、テキストの説明から画像を作成することができます。
Vectorizer.AI: PNGやJPG画像をSVGベクター画像に素早く変換します。
Chart Generator: AIがバー、ライン、パイなどの視覚的なチャートを作成する必要がある場合に最適です。
Web Scraper: ウェブサイトからテキスト、画像、リンクを自動的に取得するのに便利なツールです。
Wolfram Alpha: 難しい数学の解決、データ分析、歴史情報の検索など、AIが困ったときの頼りになるツールです。
Youtube: AIがYouTube動画の統計情報を知る必要がある場合に使用します。
Stable Diffusion: テキストの説明から画像を作成するためのもう一つのクリエイティブツールです。
Yahoo Finance: AIがリアルタイムの金融・株式ニュースを入手するためのリソースです。
Wikipedia: AIがウィキペディアで素早くスニペットや情報を検索する方法です。
Current Time: AIが現在の時刻をチェックするためのシンプルなツールです。
すごいたくさんあるな・・・!
Vecrorizer.AIとか知らんかった。
Code Interpreterのようなことをする時は、Assistants APIを使うか、Wolfram Alpha使えばいいのか
エージェントモードを使用する際は、AIエージェントに多数の便利なツールを有効にすることができます。これにより、LLMは必要に応じてツールを選択し、使用することができます。これらのツールが一緒にうまく機能するようにしました。すべてのツールは共有変数プールを活用して、他のツールの出力に簡単にアクセスできます。例えば、DALL·Eを使って画像を作成した場合、動画を作成する別のツールがその画像を動画に使用することができます。
用意したビデオデモでは、DALL·EやVectorizer.AIなどのツールが含まれています。つまり、AIエージェントがロゴを描いて、それをベクターグラフィックに変換することができるのです。
https://scrapbox.io/files/662dd32c604c8800239fd893.png
その仕組みはこうです。AIエージェントはあなたとチャットをして、あなたのスタイル、求めている雰囲気、好みなどを質問します。はっきりとしたイメージができたら、DALL·Eを使ってあなたの望むデザインを作成します。あなたは調整のアイデアを提案することができ、AIエージェントはあなたの言うことに基づいて微調整を行います。そして、Vectorizer.AIにロゴを渡し、SVG形式に変換します。これで、新しいロゴをいつでも使えるようになるのです。
これがエージェントよね。自動化とは違い、インタラクションは多め。
AIエージェントの使用のためのカスタムツール
ビジネスの世界では、自社のデータを安全に取得したり、他のツールを活用してリアルタイムで問題を解決したりできるAIエージェントを想像してみてください。そこで、いくつかのクールな内蔵ツールを用意しているだけでなく、開発者が独自のカスタムツールをAPIを介して接続できるようにサポートしています。
内蔵ツールと外向きのツール
現在、これにはOpenAPI/SwaggerやOpenAI Pluginの標準を使用した拡張機能の使用が含まれます。つまり、これらの標準に合うようにAPIを調整するだけで、外部ツールをDifyに持ち込むことができるのです。独自のツールを設定したら、チーム全体ですぐに使い始めることができます。
https://scrapbox.io/files/662dd588caaa640025cee38f.png
さらに、開発者が自分でコーディングして新しい便利なツールを作ることに参加してもらえることを非常に楽しみにしています。
💡これぞ、OpenSource!この拡張性が素晴らしいよね。Obsidianみたいになって欲しい。
これによって、AIエージェントはさらにスマートになるでしょう。
始めましょう
自分だけのAIエージェントを作ってみたいと思ったことはありませんか? Difyなら、新しいアシスタントの構築から始めて、エージェントアシスタントモードを選択できます。または、既存のチャットアプリを使って、そのプロンプト設定ページからエージェントアシスタントタイプに切り替えることができます。私たちのドキュメントは、あなたの冒険のための素晴らしい出発点です。
独自のアイデアを実現するためにDifyを探求していただければと思います。独自のAIエージェントを構築する場合でも、新しいツールを提供していただく場合でも、あなたの作品を楽しみにしています。
ぜひDiscordコミュニティに参加して、あなたの考えや質問を共有してください。私たちはいつでもあなたの声に耳を傾けています!